CN112069484A

CN112069484A - 基于多模态交互式的信息采集方法及***

Info

Publication number: CN112069484A
Application number: CN202011243517.5A
Authority: CN
Inventors: 罗冠; 游强; 胡卫明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2020-12-11

Abstract

本发明涉及一种基于多模态交互式的信息采集方法及***，所述信息采集方法包括：基于待验证人员的人脸图像和人声片段进行身份认证；通过所述待验证人员的人脸图像和人声片段，预识别与所述待验证人员相关的属性信息；获取待验证人员的需求信息；根据所述需求信息及所述属性信息，确定问卷内容；所述问卷内容以多模态的交互形式展示给待验证人员，以得到待验证人员的多模态问卷答案；将所述多模态问卷答案进行信息融合；根据融合的结果进行信息的有效性验证。本发明通过待验证人员的人脸图像和人声片段进行身份认证，利用语音和人脸图像信息，从模式识别和多模态融合分析方法入手，从认证端就完成了用户多个问卷身份的关联，然后充分挖掘用户多个维度的信息，并且通过交互的过程对这些信息进行有效性判断，对于准确性存疑的信息，通过二次交互进一步确认信息的有效性。

Description

基于多模态交互式的信息采集方法及***

技术领域

本发明涉及文本、语音、人脸图像等模式识别和多模态信息融合的技术领域，特别涉及一种基于多模态交互式的信息采集方法及***。

背景技术

随着计算技术和网络技术的发展，交互方式得到了很大的改善，从原来单一的文本交互为主，变为文本、语音、图像、视频等多模态的混合交互模式，这些更丰富的模态信息使得交互像面对面交谈一样自然。

随着交互信息的丰富，交互的数据量也越来越大，随之带来的是，在交互的过程进行数据分析的难度也越来越大。如何合理地收集交互过程中的数据以便帮助完善后期分析的需要，是一个亟待解决的问题。其中涉及两个基本的问题，一方面如何收集到交互过程中涉及的多模态用户信息，另一方面是如何通过模式识别和多模态信息的融合分析方法更好地完成用户的画像。

在互联网飞速发展的今天，个人的信息安全意识不断得到提高，法律法规对个人的隐私保护也越来越严格，所以网络调查问卷形式展示的信息采集***往往面临着侵犯用户隐私的风险问题。此外，随着现代社会生活节奏的加快，传统的网络调查往往以文本交互的形式展现，问卷通过一问一答获取用户的个人信息，缺乏良好的互动，造成网络人群的参与度很低，这样问卷的覆盖面会非常小，并且无法对信息的准确性进行有效的验证，这样用户画像的完整性和准确性都受到了很大的挑战。

此外，用户的信息往往比较庞杂，无法通过一套问卷就全部得到，这样就需要多个分散的问卷来共同采集用户的信息。针对越来越多的信息采集往往会分散到多个问卷里面，如何通过身份认证的方式来完成多个问卷的身份关联，这也是传统问卷***面临的一个重要问题。

目前的方案往往通过身份注册***实现将用户的账户密码存储到问卷***服务里，然后每次用户通过账号验证的方法来完成身份的关联，这种方案无法识别多人使用同一个账号的问题，并且面临用户由于账户或密码遗忘而无法完成验证的情况。

发明内容

为了解决现有技术中的上述问题，即为了在认证端完成身份的有效验证，确保信息采集的完整性和准确性，本发明的目的在于提供一种基于多模态交互式的信息采集方法及***。

为解决上述技术问题，本发明提供了如下方案：

一种基于多模态交互式的信息采集方法，所述信息采集方法包括：

基于待验证人员的人脸图像和人声片段进行身份认证；

通过所述待验证人员的人脸图像和人声片段，预识别与所述待验证人员相关的属性信息；

获取待验证人员的需求信息；

根据所述需求信息及所述属性信息，确定问卷内容；所述问卷内容以多模态的交互形式展示给待验证人员，以得到待验证人员的多模态问卷答案；

将所述多模态问卷答案进行信息融合；

根据融合的结果进行信息的有效性验证。

可选地，所述基于待验证人员的人脸图像和人声片段进行身份认证，具体包括：

获取待验证人员的人脸图像和人声片段；

提取所述人脸图像的人脸编码向量以及人声片段的声纹向量；

根据所述人脸编码向量及声纹向量，确定数据库中是否有匹配的人脸编码和声纹向量；如果有则认证通过，否则确定所述待验证人员为新用户，将所述待验证人员的人脸编码和声纹向量存储至所述数据库中，并设置唯一的ID标识；所述数据库中存储有多组用户信息，各所述用户信息包括ID标识、人脸编码、声纹向量及用户的问卷信息。

可选地，所述根据所述人脸编码向量及声纹向量，确定数据库中是否有匹配的人脸编码和声纹向量，具体包括：

计算待验证的人脸编码向量和声纹向量与数据库中每一个ID标识下的人脸编码向量和声纹向量的相似度，当两者相似度同时达到对应的相似度阈值时，确定所述数据库中有匹配的人脸编码向量和声纹向量。

可选地，所述基于待验证人员的人脸图像和人声片段进行身份认证，还包括：

在身份认证通过后，根据所述待验证人员的人脸图像和人声片段对所述数据库进行更新。

可选地，所述在身份认证通过后，根据所述待验证人员的人脸图像和人声片段对所述数据库进行更新，具体包括：

假定本次提取的人脸编码向量为F(n)、声纹向量为S(n)，而数据库中存放的匹配的人脸编码向量为F(o)、声纹向量为S(o)，则本次认证后更新到数据库的人脸编码向量

与声纹向量

分别：

；

；

其中，

为遗忘指数。

可选地，所述属性信息包括：采集设备状况、环境状况及用户状态中至少一者；

所述采集设备状况包括采集设备的分辨率；

所述环境状况包括环境的明暗、安静与嘈杂中至少一者；

所述用户状态包括性别、年龄、身高体重指数及心情状态中至少一者。

可选地，所述问卷内容以多模态的交互形式展示给待验证人员，具体包括：

待验证人员能够通过选择阅读问题然后点击选项的形式交互；或者通过选择语音进行问答的形式交互；或者上传对应的图像就能完成信息的自动识别和填写。

为解决上述技术问题，本发明还提供了如下方案：

一种基于多模态交互式的信息采集***，所述信息采集***包括：

认证登录单元，用于基于待验证人员的人脸图像和人声片段进行身份认证；

预识别单元，用于通过所述待验证人员的人脸图像和人声片段，预识别与所述待验证人员相关的属性信息；

获取单元，用于获取待验证人员的需求信息；

确定单元，用于根据所述需求信息及所述属性信息，确定问卷内容；所述问卷内容以多模态的交互形式展示给待验证人员，以得到待验证人员的多模态问卷答案；

融合单元，用于将所述多模态问卷答案进行信息融合；

验证单元，用于根据融合的结果进行信息的有效性验证。

为解决上述技术问题，本发明还提供了如下方案：

一种基于多模态交互式的信息采集***，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

基于待验证人员的人脸图像和人声片段进行身份认证；

获取待验证人员的需求信息；

将所述多模态问卷答案进行信息融合；

根据融合的结果进行信息的有效性验证。

为解决上述技术问题，本发明还提供了如下方案：

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

基于待验证人员的人脸图像和人声片段进行身份认证；

获取待验证人员的需求信息；

将所述多模态问卷答案进行信息融合；

根据融合的结果进行信息的有效性验证。

根据本发明的实施例，本发明公开了以下技术效果：

本发明通过待验证人员的人脸图像和人声片段进行身份认证，利用语音和人脸图像信息，从模式识别和多模态融合分析方法入手，从认证端就完成了用户多个问卷身份的关联，然后充分挖掘用户多个维度的信息，并且通过交互的过程对这些信息进行有效性判断，对于准确性存疑的信息，通过二次交互进一步确认信息的有效性。

附图说明

图1是本发明基于多模态交互式的信息采集方法的流程图；

图2是人脸图像和人声片段身份认真的流程图；

图3是多数据样式串行选项匹配方法的流程图；

图4是本发明基于多模态交互式的信息采集***的模块结构示意图。

符号说明：

认证登录单元—1，预识别单元—2，获取单元—3，确定单元—4，融合单元—5，验证单元—6。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的是提供一种基于多模态交互式的信息采集方法，通过待验证人员的人脸图像和人声片段进行身份认证，利用语音和人脸图像信息，从模式识别和多模态融合分析方法入手，从认证端就完成了用户多个问卷身份的关联，然后充分挖掘用户多个维度的信息，并且通过交互的过程对这些信息进行有效性判断，对于准确性存疑的信息，通过二次交互进一步确认信息的有效性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明基于多模态交互式的信息采集方法包括：

步骤100：基于待验证人员的人脸图像和人声片段进行身份认证；

步骤200：通过所述待验证人员的人脸图像和人声片段，预识别与所述待验证人员相关的属性信息；

步骤300：获取待验证人员的需求信息；

步骤400：根据所述需求信息及所述属性信息，确定问卷内容；所述问卷内容以多模态的交互形式展示给待验证人员，以得到待验证人员的多模态问卷答案；

步骤500：将所述多模态问卷答案进行信息融合；

步骤600：根据融合的结果进行信息的有效性验证。

其中，如图2所示，在步骤100中，所述基于待验证人员的人脸图像和人声片段进行身份认证，具体包括：

步骤110：获取待验证人员的人脸图像和人声片段。

其中，在步骤110获取待验证人员的人脸图像和人声片段之后，还包括验证输入人脸图像和人声片段的有效性。

具体包括：首先通过用户的设备获取人脸照片和声音片段，然后将人脸照片进行人脸检测和对齐操作，对于不符合要求的人脸图像（没有检测到人脸、图像太暗或者太亮、人脸的姿态不合适等），进行拒识别操作，提示用户从图像采集设备重新现场采集一张人脸上传用于验证操作；另外对于声音片段也进行人声检测，如果没有发现人声或语音太短，进行拒识别操作，提示用户从语音采集设备现场采集一段个人语音上传用于验证。

人脸检测与识别的过程是将人脸从用户设备采集的图像中找出来，然后进行归一化对齐操作，针对对齐后的人脸进行编码操作，以便后续完成人脸的比对。人脸与人脸的编码向量的关系符合下面的要求：人脸越相似，经过编码之后的向量在给定的（核）空间里就越靠近，完全相同的人脸得到的编码向量也是完全相同的。这样可以通过简单的阈值模型，就能够完成人脸的验证工作。人脸的检测、识别与比对可以通过如图2的示意图概要的表达出来。

而目前的人脸检测的方法非常多，例如：基于Harr-like特征和AdaBoost分类器的方法、基于MTCNN模型的人脸检测方法及基于SSD (Single Shot Detection)的方法，该方法基于框的几种比率模板来设置最后的人脸检测方框，由于人脸的比率相对比较固定，所以该方法非常快。并且对一些较小的人脸也有很好的检测效果。

经过人脸对齐和归一化的人脸之后，将人脸编码成一串特征向量，作为该人脸的一个“指纹”，即没有任何两张人脸是一样的，除非这两张人脸完全一样。人脸越相似，人脸所提取的特征向量在给定的（核）空间上也越接近（距离越小）。目前人脸编码网络的类型非常多，对于网络中训练的损失定义也很多。通常而言，目前选择比较多的是一种叫Triplet-Loss的损失函数，它描述了同一个人的不同人脸照片与不同人的人脸张片的差异性。如果将同一个人定位某一类的话，那么同一个人的不同人脸照片就可以看成同一类下的不同样本，而不同的人的照片就分属不同的类别。在训练过程中将同一人的两张不同照片和另一人的人脸照片一起输入到神经网络中，不断迭代训练，使同一人的两张人脸照片编码后的预测值接近，不同人的照片预测值拉远，也就是减小类内距离，增大类间距离。

人声检测即从环境中拾取人声的过程，也称为人声活动检测（Voice ActivityDetection, VAD）。声音信号与图像不一样的地方是，声音可以表示为随时间变化的频谱序列图，而图像则是空域上的亮度矩阵（当然通过时空变换，也可以将空域上的亮度变化转换为时域上频率分布图，但是由于缺乏时间维度，所以变换后的频率只是反映了亮度的分布，而不反应时间的过往），所以对于声音和图像的处理手段是不一样的。拿到一段声音之后，首先要做的是对声音进行分段操作，为了能够描述声音的时间上下文，需要有一个滑动窗保证分割的声音片段在时间线上是重叠的，然后对每一个声音片段（也称为帧）进行短时傅里叶变换（Short-Time Fourier Transform, STFT），同时计算每一个声音片段的能量，当检测到声音的能量出现了明显的变化时，就可以认为是声音有无的边界了。由于人声与其他声音有着比较明显的特征差异，有两种方法来区分声音中人声与否，一种方法是直接基于短时频谱（或者倒频）特征与标准的人声的频谱相似度阈值模型来区分是否人声，另外一种方法是基于分类的方法来识别声音的类别。

声音编码是指将声音转换为特征向量的过程，也称为“声纹”提取，跟人脸编码一样，提取的特征向量需要保证声纹的唯一性，而相似的声音，往往要保证编码向量在给定的空间上比较接近。针对声音的序列特点，目前比较常见的声纹编码模型是基于GMM的模型。

步骤120：提取所述人脸图像的人脸编码向量以及人声片段的声纹向量。

步骤130：根据所述人脸编码向量及声纹向量，确定数据库中是否有匹配的人脸编码和声纹向量；如果有则认证通过，否则确定所述待验证人员为新用户，将所述待验证人员的人脸编码和声纹向量存储至所述数据库中，并设置唯一的ID标识；所述数据库中存储有多组用户信息，各所述用户信息包括ID标识、人脸编码、声纹向量及用户的问卷信息。

其中，在步骤130中，所述根据所述人脸编码向量及声纹向量，确定数据库中是否有匹配的人脸编码和声纹向量，具体包括：

进一步地，所述基于待验证人员的人脸图像和人声片段进行身份认证，还包括：

在身份认证通过后，根据所述待验证人员的人脸图像和人声片段对所述数据库进行更新。具体包括：

与声纹向量

分别：

；

；

其中，

为遗忘指数。

从0.5~1.0之间取值以保证人脸编码向量和声纹向量的及时更新，当然在安全要求更高的现实场景下，

的取值需要全面评估提取的人脸和人声的质量等多种因素。如果两者的相似度没有同时满足对应的相似度阈值达到，就认为是一个新的用户，将对应的人脸编码向量和声纹向量存放到数据库中，给一个唯一的ID进行标识。

通过身份认证和登录并不是要限制用户来问卷平台进行信息交互，而仅仅用作身份关联，方便构建以用户为中心的信息采集平台，这样在后期分析的时候能够将多个问卷信息关联在一起，方便更全面精准的进行用户画像。相比传统的账号密码登录***，基于人脸和声音的混合验证登录***有很多的便利性：第一是安全性较高，不容易发生账号密码被盗用而造成个人信息泄露事故；第二是登录过程非接触且无感，无需记忆账号和密码，也无需每次登录时都手动输入账号密码；第三是能够通过人脸、声音混合验证登录过程中的预识别解读出很多隐藏的属性信息（比如环境状况、用户的状态等，在后续会详细介绍这些识别的流程），这些识别出来的属性信息有利于后续的信息交互。

为了更好地进行后续问卷信息的采集，从两个方面的要求去考虑预识别的意义。第一需要尽量保证后续用户信息的准确性；第二在准确性的基础上，尽量希望采集更丰富的用户信息。要求在合适的场景下给用户需要的反馈。比如用户感冒了，大致识别用户当前的状态（之所以说大致是由于需要更多的问卷信息以便采集用户的信息从而补充更多的证据），给他的问卷恰好是怎么识别感冒、以及改善感冒症状方法的问卷，那用户参与信息采集的意愿就会很强烈。为此本发明有必要对身份认证时采集的人脸和人声进行一部分属性的预识别。有些属性是比较通用的个人信息，比如性别、年龄层、BMI等。有些是与当前用户的状态或具体的应用场景密切相关的，比如用户当前所处的环境，用户当前的情绪、注意力、睡眠状况等。

其中，所述属性信息具体包括：采集设备状况、环境状况及用户状态中至少一者；

所述采集设备状况包括采集设备的分辨率；

所述环境状况包括环境的明暗、安静与嘈杂中至少一者；

进一步地多模态交互问卷信息采集，通过用户的自述（比如问卷引导的问答）和展示（比如问卷信息采集过程中的人脸和语音多模态的交互）获取和挖掘用户的信息，然后对这些信息进行反馈，可能是反馈一些问题的解答、可能是推荐一些产品也可能仅仅只是聊天。针对不同的反馈信息，可以应用到如下典型场景中：比如在线问诊，反馈的是改善健康的建议；比如智能客服，反馈的是产品的售前售后；再比如对话机器人，可能仅仅是插科打诨、沟通聊天等。

以健康场景应用下常见的性别、年龄、BMI等比较关键的用户信息入手，详细介绍这些属性的识别方法，由于有人脸和人声两个模态，下面会根据属性的识别特点，选择合适的模态输入，对于多个模态都能进行的属性识别任务，会将识别的多个结果进行有效性验证。

A、基于人脸的性别与年龄识别

目前准确率较高的人脸性别识别和年龄识别都是使用深度学习来完成的，性别识别是一个典型的二类分类问题，而年龄识别可以看成是一个多类分类问题。目前的多个经典网络都可以用在这些分类问题上。下面从目前人脸性别年龄数据集出发，以目前较为典型的几类模型入手，具体介绍这些模型是如何用在性别和年龄识别任务上的。

跟其他机器学习方法的流程一样，首先收集人脸的样本，并对人脸的性别年龄进行标注，目前有一些可用的数据集，下面列举一些常用的人脸性别和/或年龄的数据集：（1）包含了50多万从IMDB和WIKI上抓取的人脸样本集IMDB-WIKI，该样本集给出了一个简单的使用VGG16网络训练的性别和年龄基线模型；（2）包含了从2000个明星的163446张跨年龄的数据集CARC，这个数据集的优点是可以用于识别同一个人不同时段的年龄或者反过来识别不同年龄的人脸是否属于同一个人；（3）一个付费的数据集MORPH/MORPH2。以上数据集中的人脸大多属于欧美人种；（4）包含了2万张人脸的各种各样人种且只可用于非商业用途的UTKFace数据集;（5）包含13322张大部分是亚洲人脸的All-Age-Faces数据集；(6)包含41941张标注了年龄后验分布的MegaAge数据集或者只包含40000张亚洲人种人脸的MegaAge-Asia数据集。

收集到人脸性别和年龄数据集之后，就可以选择网络模型来进行训练了。目前基线模型是VGG16在IMDB-WIKI数据集上训练得到的，该模型针对性别和年龄是分开单独训练的，且每个模型都比较大（约0.5GB）,针对年龄的输出模型DEX（Deep EXpectation）是通过Softmax层输出0~100共101个类别的概率，然后基于概率算出期望年龄。VGG16属于相对比较宽的网络，待训练的网络参数比较多，训练的时候收敛比较慢，实际应用的时候也比较耗费资源。另外有一些更为紧凑参数规模更小的网络模型比如MobileNet，DenseNet也可用于年龄和性别的训练。性别识别是一个比较简单的分类任务，下面重点介绍一个用于年龄识别的模型，一个更为紧凑的模型是SSR-Net，该模型在保证对年龄识别精度适中的情况下，大小只有约0.32MB，在CPU上就能实现实时地识别年龄和性别。SSR-Net预测年龄的模型受到了DEX的启发，使用了软的分阶段回归(Soft Stagewise Regression, SSR)的方法，通过由粗到细的回归，使得年龄的范围预测是一个动态的过程。

更形式化地描述，DEX模型将年龄分为s个年龄段，即对于[0,V]的年龄跨度，每个年龄段的跨度为V/s，该端的代表性年龄取u=V/s.然后DEX将年龄的预测转换为一个s类的分类模型，最后的Softmax输出的就是每一类的概率P，通过如下的年龄期望计算就可以输出最终的预测值

：

；

SSR-Net是一个分阶段地进行DEX的操作过程，然后不同阶段的值再融合形成最终的预测输出。假设从粗到细的阶段总数是K，那么最终预测值的公式变为了下面的形式：

。

例如，令V=90，也就是年龄跨度为0到90岁，阶段数K=2，每个阶段的年龄段数为3,即S₁=S₂=3，那么阶段K=1时，每段年龄分别是(0~30),(30~60),(60~90)，对于阶段K=2时，每段年龄段又被分为3段，即每段年龄分别是(+0~10),(+10~20),(+20~30)。由于年龄是连续的且在数量上存在一定的比较关系，直接将年龄量化为平均且不重叠的区域构成分类的类别，对划分边界的位置的年龄预测的误差会比较大，所以SSR-Net又在边界地方通过类似于批量正则化(BatchNorm)的方法（SSR-Net中称之为Scale-and-Shift）使得输出的年龄结果更加稳定。最后SSR-Net在构建网络时候分别使用最大池化（MaxPool）、平均池化（AvgPool）以及不同的通道(channel)形成不同的子网络从而提取不同的特征，通过这些融合方法在网络参数较少的情况下尽量提高预测的准确性。如果没有特别高的要求，对于SSR-Net用于年龄的预测可以直接使用已经训练好的模型，使用预先收集到相关数据，可以在已有的模型上精调。

在识别人脸性别和年龄之前，需要对人脸进行必要的归一化和对齐操作，具体的处理同身份认证和登录中对人脸的预处理方法一样，这里不再赘述。

这样就通过用户的人脸预测得到了用户的性别和年龄，在考虑后续问卷选择的时候，可以将这两个信息作为依据去选择适合用户的问卷。

B、基于人声的性别与年龄段识别

目前人声性别和年龄段的识别都可以看成是分类问题，其中人声性别识别可以看成了人声的二分类问题，而人声的年龄段识别一般可以看成了多分类问题（目前一般是儿童、青中年以及老年三类）。通常人声的性别和年龄段的识别与声纹提取是同时进行的，在有说话人语音样本的情况下，在提取到说话人的声纹特征向量之后，可以基于特征向量完成分类操作。

目前更通用且准确性更高的方法是基于最基本的MFCC向量然后加上分类模型的方法。MFCC的特征提取简要概述如下：首先将人声进行分帧操作，即通过一个固定的较短长度的滑动窗，将整个音频分成重叠的音频帧；然后针对每一帧音频加窗操作之后进行STFT；然后根据频率分布通过梅尔(Mel)滤波器组将提取对应频率的能量特征；之后进行对数变换操作，最后进行离散余弦变换DCT得到最终的MFCC特征。具体的实现可以通过查阅语音识别开源库Kaldi中关于MFCC的特征提取部分。一旦得到了MFCC特征，就可以通过常见的DNN网络进行分类了。

目前人声性别和年龄的数据集能够获取到的可以参照Kaldi中的示例数据集，其中也包含了一些模型的训练脚本，便于进行基线模型的训练。此外开源库inaSpeechSegmenter在进行VAD的同时也自带了一个准确度较高的人声性别识别模型，该模型基于MFCC特征和较小规模的普通CNN网络，识别速度较快，可以作为预训练的入手模型。关于人声年龄段的识别也可以参照以上模型完成。

通过人脸图像和人声语音两个模态的性别和年龄识别，就能够互相印证，并且也能完善后续的信息采集逻辑。比如针对性别的识别，如果人脸和人声的识别结果一致，那么可以认为这个识别结果的准确度很高，在后续问卷信息采集中就可以不用再重复询问用户性别了，如果不一致，那么后续中会着重关注这一信息。针对年龄的识别结果，如果两个模态的识别差距很大，也必须重点关注这一信息，并在后续的训练中重点对待这些样本，以便通过精调训练的方式改进当前模型的识别效果。

C、人脸BMI识别

人脸BMI识别是通过人脸来识别用户身材状况，从而间接估计人体健康状况的一项模式识别方法，由于目前这方面的数据集比较匮乏，所以在设计问卷的时候专门收集了人脸和对应人脸的身高体重信息，从而构建了一个比较大的人脸BMI数据集。在构建的过程中，通过多个维度的预识别判断和少量抽样人工标注，最终形成了一个20多万数据量的人脸BMI数据集。

在这个数据集的基础上，本发明完成了两类识别方法的比较。按照基本的经验，人脸的比例结构与BMI高度关联，所以首先完成了基于人脸脸部度量特征的BMI识别方法，其基本想法是在对齐后的人脸上提取更多的人脸定位点(facial landmark)，然后根据这些定位点提取大量的脸部度量结构特征，然后通过XGBoost的方法完成特征的筛选和BMI的预测，具体的流程可以查看我之前申请的专利内容。此外还基于经过筛选的20多万人脸BMI数据集，通过经典的网络DenseNet进行模型训练，将最后的输出从用于分类的Softmax层转换为用于回归的Regression层，并且在训练中将交叉熵损失(CrossEntropyLoss)换成了均方误差损失(MSELoss)。基于经验，不能对脸部的结构做一些大的变换，所以在网络训练的过程中，一定要注意数据增强参数的设定，对于容易引起脸部明显结构变化比如拉伸、压缩操作需要避免，而对人脸图像其他增强操作比如平移、翻转、旋转、缩放、亮度增强等则没有影响。此外，注意到人脸BMI的识别跟人脸年龄的识别类似，后续可以尝试使用更为紧凑的SSR-Net进行模型训练。

D、面部情绪识别

面部情绪的识别是将人脸所表达的喜怒哀乐等情绪识别出来，面部情绪的识别可以认为是一个典型的图像多类分类问题。

目前关于面部情绪的判断还处于相对比较基础的阶段，其原因脸部所表达出来的情绪往往是比较复杂的，很多时候是多种情绪的综合，人们很难去界定脸部所表达出来的是哪一种情绪，所以从单一人脸照片中识别情绪往往面临着较大的挑战。目前关于脸部情绪识别最经典的数据集来自于FER2013，此数据集中的人脸来自于网络，少许图片的标签存在些许争议。于是微软使用众包的方法对标签重新加以标注，形成了FER+数据集，该数据集包含了八类脸部情绪，通过样本量的统计发现，其中的两类很少，所以又将这两类进行了合并处理。在样本量相对不足的情况下，使用参数较多的网络模型没有什么意义，所以在较小规模的网络模型下进行了训练，包括MobileNet和mini-Xception并将识别的结果进行了比较。

面部情绪的预识别将有助于了解用户当前的状态，从而决定是否进行后续问卷信息的采集，或选择什么样主题问卷进行信息采集。

E、人声情绪识别

目前可用的人声数据集主要包括以下数据集：（1）RAVDESS.该数据集包含了12名男性、12名女性共24名演员对8中情绪表达的1500条音频记录。（2）SAVEE.该数据集包含4名男性演员针对不同情绪的500条音频记录。针对音频提取特征（一般是MFCC特征）就可以进行使用模型进行分类了。目前预训练的模型包括了CNN和LSTM模型，具体的训练参数可以查看已有的Kaldi中的一些实现方法，或者其他一些开源的实现代码。

针对两个模态进行情绪识别和互相印证的方法处理跟性别年龄处理类似，这样一方面能够增强识别的准确性，另外也能完善后续问卷信息采集中重点要关注的内容。

F、基于捕获声音的用户环境噪声建模与人声降噪

人声跟图像不同的是人声更容易受到环境噪声的影响，所以在进行后续交互式问卷信息采集之前，对用户声音采集过程中环境噪声的建模是必要的，其基本原理是在进行VAD时，将所谓“无人声”的音频保留，建立“无人声”状态下环境噪声的音频频率分布，然后在进行后续人声分析的过程中，将这部分噪声去除，这是比较相对比较简单的方法。

目前基于实时人声降噪的方法主要分为两种，第一种是基于GMM的方法，将人声和噪音看成是混合高斯模型，然后对人声对应的单个高斯模型进行分离；第二种是使用深度学习方法，预先训练一些常用的噪声模型，然后根据已有的噪声模型对人声音频进行降噪。

在后续人声分析中，本发明都采用了预采集环境噪声的方法，而不是基于模型的方法对人声进行实时降噪，其原因是在使用场景下，用户端的环境噪声是比较容易感知到的，通常而言这部分环境噪声也比较稳定（用户主动参与，而不是被动接受）。

经过人脸和人声属性的预识别，将按照属性的时间存续性，按照不同的更新策略将预识别的属性更新到对应用户ID的预识别属性数据库里。比如对于性别一般不随时间改变，所以会识别一次结果就和用户ID关联，在以后的识别中，仅仅从安全方面考虑会间隔较长的时间识别对应用户的性别，并基于已识别的性别进行验证；对于年龄的识别也一般不会改变，由于年龄会缓慢增长，所以在向数据库更新用户识别的年龄时，会根据实际情况进行类似前面加权更新的算法。对BMI的识别结果更新相对频繁一些，而对于与场景密切相关的比如用户的当前情绪、用户所处的噪声环境则是每次预识别都会更新到当前的最新状态。

人脸与人声属性的预识别任务还有很多，本实施例中重点介绍了目前健康领域比较关注的几个属性进行了识别，后续将基于这些识别的属性进行问卷的选择和推荐。

在步骤400中，根据所述需求信息及所述属性信息，推荐问卷内容。

在以健康为主要内容的问卷信息采集平台下，问卷的主题可能涉及多个方面，比如抑郁症等心理疾病、流感等一些季节性疾病，比如女性经期综合征，再比如亚健康等。通过对人脸和人声相关属性的预识别，得到一些很有价值的用户个人属性标签。在下面的叙述中，将详细讨论一下这些问卷的推荐逻辑。

典型推荐***的推荐逻辑包含多个方面，比如基于主题内容关联性的推荐，基于用户关联性的推荐，基于协同过滤的推荐，基于时间与热度（比如点击率、流量等）的推荐，基于属性图图网络的推荐等。推荐***在最开始运行的时候，通常都会面临一个叫做“冷启动”的问题，这个时候***对推荐的用户以及可能面临的用户群往往知之甚少。有了用户的参与之后，用户与所推荐的内容（商品、服务等）就有了“用户-推荐内容”的历史关联关系。前面通过身份认证和与识别的一些用户个人属性标签将有利于改善“冷启动”的问题。其基本推荐逻辑如下所述。

正是由于有前面预识别属性的原因，在进行问卷推荐之前数据库中至少已经建立的用户个人ID，也存储了与个人ID关联的信息包括用户的人脸特征向量、声纹向量以及预识别的相关属性。如果用户之前来过问卷平台，那么数据库中关于他的信息则更加丰富，包括了他之前参与的问卷主题，以及通过该问卷采集到的个人信息。从主题内容的关联性推荐方法来看，比如如果预识别用户的性别是女性，则不应该推荐只适合推荐给男性的问卷（比如男性***健康主题的问卷），如果预识别用户是小孩的年龄段，可以推荐健康生长发育主题的问卷，比如识别用户的BMI较大，可以尝试健康饮食与生活相关主题的问卷。从用户关联性的推荐中，可以通过属性聚类的方法，将拥有相似属性的用户推荐类似主题的问卷。举个例子，比如一些同是35岁左右的BMI较大的男性用户，可能会比较关注亚健康相关主题的问卷，这样一个预识别为同样年龄段BMI较大的男性用户如果之前没有被推荐过亚健康相关的问卷，则应该将问卷及时地推荐给他。基于协同过滤的方法除了前面提到基于主题内容以及用户关联的推荐之外，还包括基于“用户-推荐内容”矩阵分解进行联合推荐的方法。从时间和热度的推荐逻辑中，比如每年春天都是流感的高发季节，这个时候应该推荐流感防治相关主题的健康问卷。此外，所有的推荐逻辑中有一条基本的与时间相关的逻辑是，对于之前已经推荐过的问卷，对同一个用户不应该在短时间内二次推荐该问卷。在记录问卷的推荐信息的时候需要带上时间属性。基于属性图图网络(Graph NeuralNetwork, GNN)的推荐是最近发展起来的推荐逻辑，其基本原理是通过被推荐对象的各种不同的属性表示构建属性图，这个属性图可以是各向同性(Homogeneous)的也可以是异性(Heterogeneous)的，然后利用图网络训练每个用户的图嵌入式(embedding)表示，在嵌入式表示的基础上完成基于图算法的推荐。目前在用户数据量不足的情况下，前面的推荐逻辑已经能够满足本发明***的要求，后续在用户以及用户属性信息大量增加的情况下，可以尝试基于图网络的推荐逻辑。

通过上面的推荐逻辑之后，这样一套适合当前用户的主题问卷就摆在用户眼前了，接下来就需要进行用户问卷信息的采集这一重要步骤。其中，一直在强调问卷信息采集过程是基于多模态交互分析的过程，下面对这一过程进行详细的叙述。

问卷信息采集过程中的多模态信息包括文本、音频以及图像的内容。就像编导一部包含文本台词、演员对话以及场景布置的电影一样，通过预先定义具有完整诊断逻辑主题的问卷将多模态的交互内容融合其中。对于之前已经采集过的用户信息，在问卷交互的过程中会尽量跳过，避免重复采集。

交互式信息采集的过程体现在以下几个方面：

每一个主题的问卷逻辑都是实现精心编排的一幅有向图，而不是一条线。图的起始点(source)是问卷的开始，图的终止点(sink)是问卷的结束。对于图上给出的问题和选择项，都会有预先的文案来回应用户，用户在回答完问题或者选择完选项之后，就能得到问卷逻辑上及时的回应。在整个问卷回答完毕之后，还有相关信息的总结和一些改善健康的建议，帮助用户回顾问卷中填写的需要重点关注的内容。

待验证人员能够通过选择阅读问题然后点击选项的形式交互；或者通过选择语音进行问答的形式交互；或者上传对应的图像就能完成信息的自动识别和填写；或者实时地以视频形式与问卷进行交互。

针对交互方式的多样性，本实施例以典型的语音方式进行问卷信息的交互为例，支撑该交互方式需求的背后需要用到如下关键技术。包括语音合成(Speech Synthesis)，语音识别(Speech Recognition)，以及识别背后的选项匹配算法。下面针对这些关键技术进行详细的阐述。

a、语音合成

语音合成通常又称为文本转语音技术(Text To Speech, TTS)，最早的技术有基于规则的共振峰合成，然后出现了基于单元拼接的合成。接下来出现了基于大语料库的单元选择和拼接合成。后来基于隐马尔科夫的参数模型在质量上胜出单元拼接，变成主流的设备端的语音合成技术选择。当然单元拼接的质量跟语料库大小很有关系，所以这个技术也还在广泛使用中。这些传统技术基本实现了语音合成可用，但是自然度还是一般。由于体积小性能要求低，产品主要用于离线设备上语音合成。

神经网络语音合成主要包含3个模块，文本分析、声学模型和声码器。

文本分析的功能是对文字进行分析，本质上是一个自然语言处理模块。输入的是一段话，输出的是分开的句子和相关信息。句子的相关信息里面有词语的列表，句子的属性。每个词语也有它对应的发音音素串、词性、停顿级别等等。可以看到，文本分析要完成这个工作，需要进行三方面的处理。第一，文档级别的处理包括分句等等，第二，句子分析，需要能够对自然语言的文字进行分词，对于每个词能够进行信息的查找，还能基于文字对韵律停顿进行一定的预测。第三，读音生成，就是生成每个词语在上下文中的读音。文本分析主要挑战在于自然语言的歧义和未登录词的处理。学过自然语言处理的人都知道，自然语言是有很多歧义的。举个例子来讲，中文中的多音字实际上是语义的歧义问题，要确定一个多音字的读音。需要通过上下文对多音字词的语义进行理解。

神经网络声学模型中一个典型的模型Tacotron，直接把输入的字符串转成梅尔谱序列。有了注意力机制的模型可以更好的对语音的韵律进行建模，达到更高的自然度。这个模型的缺点是不太稳定。训练中没有见过的句子输入，有可能会出现严重的错误。比如说连续的一串数字二，它有可能只读出来一部分。这对语音产品来说是不可以接受的。后来微软提出基于Transformer的模型。自回归的Transformer通过自注意力机制，能够比Tacotron更快的完成训练并且获得同样的质量。而FastSpeech模型通过对模型的改进，彻底解决了模型稳定性问题，并且达到了极高的推理速度，可以实现时长的控制等等。在处理中文的时候，需要将中文转换成拼音，然后按照拼音的规则对音素进行提取。例如以ESPNet中的预训练模型入手，收集适合场景的文本-语音数据，也可以像讯飞一样使用混合模型联合进行训练，从而使得文本合成语音的效果更加自然。

在交互的过程中，利用语音合成器将预先定义的问卷问题和选项转换为语音，通过用户发声设备输出，然后用户基于听到的语音信息，通过语音直接回答接问题或者选择答案，这样就可以通过语音完成问卷信息的采集了，这需要下面的语音识别和选项匹配两个关键技术。

b、语音识别

语音识别通常又称为语音转文本技术(Speech To Text, STT)，其本质是一种基于语音特征参数的模式识别，即通过学习，***能够把输入的语音按一定模式进行分类，进而依据判定准则找出最佳匹配结果。

语音识别从处理的核心步骤而言，首先需要对语音进行编码（也特征提取），然后基于声学模型(Acoustic Model)和语言模型(Language Model)对编码后的向量进行解码。声学模型处理的问题主要在于特征向量序列的可变长和音频信号的丰富变化性，因为语音长度是不确定的，所以特征向量序列的长度也是不确定的，一般通过动态时间规整(DTW)方法和隐马尔可夫模型(HMM)来处理。音频信号的丰富变化性指，音频信号的多样性会由说话人的性别、健康状况、紧张程度、说话风格以及环境噪声、周围人声、信道扭曲、方言差异、非母语口音等各种原因所引起。

当用户用语音回答了问卷中的问题之后，通过语音识别，能够将用户回答的语音转换为文本内容，方便进行后续的答案选项的匹配。从而采集本实施例需要的信息。

c、选项匹配

考虑到用户可能会以多种方式回到问题上，本实施例实现的方案是一种多数据样式的串行匹配方案（如图3所示），其中考虑的数据样式有转换后的纯文本、对文本进行拼音转换后的拼音、选择序号以及文本所蕴含的语义。

其中，通过阈值匹配模型，将要识别的数据样式按照识别的先后顺序依次通过，一旦匹配上就提前返回结果。这样一方面提高了匹配的效率，另一方面也能保证尽量完成单次匹配，通过拼音匹配可以避免语音识别成错误文本而造成的匹配丢失的问题，通过序号匹配能够极大提高匹配的效率，而最麻烦的最耗时且匹配精度不高的文本语义匹配则放在最后。

其中纯文本的匹配和文本转语音的匹配都是基于最大公共子串+阈值模型来完成的，其中阈值的参数设置，需要在测试中反复试验，当阈值为1时，则代表最严格的全串匹配，而当阈值为0的，则代表一个字符也没有匹配上，而阈值的大小表明了匹配的子串长度占总长度的比值，这个值需要不断尝试。序号匹配则是完全基于常见序号的正则表达式模板完成的，可能会有遗漏，但是可以通过用户样本的试错，不断完善匹配模板的样式，以便将常见的匹配方式都囊括在内。基于文本语义相似度的匹配可能会造成较大的误匹配问题，本发明会根据问卷的主题不断完善语义提取的模型，以便尽量补充可能缺失的上下文语义，提高匹配的准确性。

这样基于语音交互的问卷信息采集***就构建完成了。类似的如果用户直接使用视频方式来跟问卷***进行交互，首先从视频中分离音轨信息，然后将问题转换为上面基于语音交互的技术方案，可以基于视频中抓取的关键帧识别用户的情绪状态等其他属性，从而获取更多的用户信息。

在步骤500和600中，对于通过问卷采集到的用户多模态信息，首先进行信息融合，然后根据融合的结果，采用问卷信息回归的方式进行信息的有效性验证。

目前多模态信息融合的架构主要有联合架构、协同结构和编解码架构。联合架构是将单模态表示投影到一个共享语义子空间中，以便能够融合多模态特征；协同架构包括跨模态相似模型和典型相关分析，其目的是寻求协调子空间中模态间的关联关系；编解码器架构是用于将一个模态映射到另一个模态的中间表示。三种融合架构在视频分类、情感分析、语音识别等许多领域得到广泛应用，且涉及图像、视频、语音、文本等融合内容。

目前多模态融合方法主要分为两大类：模型无关的方法和基于模型的方法，前者不直接依赖于特定的深度学习方法，后者利用深度学习模型显式地解决多模态融合问题，例如基于核的方法、图像模型方法和神经网络方法等。

模型无关的融合方法可以分为早期融合（即基于特征的）、晚期融合（即基于决策的）和混合融合。早期融合在提取特征后立即集成特征（通常只需连接各模态特征的表示），晚期融合在每种模式输出结果（例如输出分类或回归结果）之后才执行集成，混合融合结合了早期融合方法和单模态预测器的输出。

在问卷信息采集***中，尝试了一种基于模型无关的多模态晚期融合策略来融合采集到的个人信息。晚期融合也叫决策级融合，学***均值融合(Averaged-Fusion)、贝叶斯规则融合(Bayes Rule Fusion)以及集成学习(Ensemble Learning)等规则融合方法。

假设用户的信息可以通过M个模态对应的识别模型进行识别，假设用户的信息可用C个标签表示，在构建这些模型时，每一个模型在已有测试集上的识别精度分别为P _m , m=1,…M，其中P_m>=1/C（对于结果比随机猜测都要差的模型要进行剔除），则在后续识别过程中使用该类在多个模态上的最大分类准确性作为可信度T，即：

；

在进行问卷信息采集的时候，会根据信息的可信度进行问卷回顾，及时更新一些之前评估为较低可信度的信息。问卷回顾的频次，与信息的重要性排序跟信息的可行度都有关，其中信息的重要性由业务决定，比如对于健康保险关联的问卷，个人的年龄、性别以及BMI都是比较重要的信息，这些信息直接决定着保险的定价。所以在后续的问卷推荐的过程中，会加大包含此类信息的主题问卷的回顾。

最后通过这种多模态交互式的问卷询问与回顾，保证了问卷信息采集***中所采集的用户信息具有较高的价值。

此外，本发明还提供一种基于多模态交互式的信息采集***，在认证端完成身份的有效验证，确保信息采集的完整性和准确性。

如图4所示，本发明基于多模态交互式的信息采集***包括认证登录单元1、预识别单元2、获取单元3、确定单元4、融合单元5及验证单元6。

其中，所述认证登录单元1用于基于待验证人员的人脸图像和人声片段进行身份认证；

所述预识别单元2用于通过所述待验证人员的人脸图像和人声片段，预识别与所述待验证人员相关的属性信息；

所述获取单元3用于获取待验证人员的需求信息；

所述确定单元4用于根据所述需求信息及所述属性信息，确定问卷内容；所述问卷内容以多模态的交互形式展示给待验证人员，以得到待验证人员的多模态问卷答案；

所述融合单元5用于将所述多模态问卷答案进行信息融合；

所述验证单元6用于根据融合的结果进行信息的有效性验证。

进一步地，本发明还提供了一种基于多模态交互式的信息采集***，包括：

处理器；以及

基于待验证人员的人脸图像和人声片段进行身份认证；

获取待验证人员的需求信息；

将所述多模态问卷答案进行信息融合；

根据融合的结果进行信息的有效性验证。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

基于待验证人员的人脸图像和人声片段进行身份认证；

获取待验证人员的需求信息；

将所述多模态问卷答案进行信息融合；

根据融合的结果进行信息的有效性验证。

相对于现有技术，本发明基于多模态交互式的信息采集******、计算机可读存储介质与上述基于多模态交互式的信息采集方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多模态交互式的信息采集方法，其特征在于，所述信息采集方法包括：

基于待验证人员的人脸图像和人声片段进行身份认证；

获取待验证人员的需求信息；

将所述多模态问卷答案进行信息融合；

根据融合的结果进行信息的有效性验证。

2.根据权利要求1所述的基于多模态交互式的信息采集方法，其特征在于，所述基于待验证人员的人脸图像和人声片段进行身份认证，具体包括：

获取待验证人员的人脸图像和人声片段；

3.根据权利要求2所述的基于多模态交互式的信息采集方法，其特征在于，所述根据所述人脸编码向量及声纹向量，确定数据库中是否有匹配的人脸编码和声纹向量，具体包括：

4.根据权利要求2所述的基于多模态交互式的信息采集方法，其特征在于，所述基于待验证人员的人脸图像和人声片段进行身份认证，还包括：

5.根据权利要求4所述的基于多模态交互式的信息采集方法，其特征在于，所述在身份认证通过后，根据所述待验证人员的人脸图像和人声片段对所述数据库进行更新，具体包括：

与声纹向量

分别：

；

；

其中，

为遗忘指数。

6.根据权利要求1所述的基于多模态交互式的信息采集方法，其特征在于，所述属性信息包括：采集设备状况、环境状况及用户状态中至少一者；

所述采集设备状况包括采集设备的分辨率；

所述环境状况包括环境的明暗、安静与嘈杂中至少一者；

7.根据权利要求1所述的基于多模态交互式的信息采集方法，其特征在于，所述问卷内容以多模态的交互形式展示给待验证人员，具体包括：

8.一种基于多模态交互式的信息采集***，其特征在于，所述信息采集***包括：

获取单元，用于获取待验证人员的需求信息；

融合单元，用于将所述多模态问卷答案进行信息融合；

验证单元，用于根据融合的结果进行信息的有效性验证。

9.一种基于多模态交互式的信息采集***，包括：

处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

基于待验证人员的人脸图像和人声片段进行身份认证；

获取待验证人员的需求信息；

将所述多模态问卷答案进行信息融合；

根据融合的结果进行信息的有效性验证。

10.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

基于待验证人员的人脸图像和人声片段进行身份认证；

获取待验证人员的需求信息；

将所述多模态问卷答案进行信息融合；

根据融合的结果进行信息的有效性验证。